团队reinforc

Anthropic团队REINFORCE++：解决AI训练偏心问题

这项由Anthropic公司的胡建、Jason Klein Liu、许浩天、沈伟等研究人员共同完成的创新研究发表于2025年1月，论文题为《REINFORCE++: An Efficient RLHF Algorithm with Robustness to